橙心优选-数据仓库高级工程师面试

Original 星球好友数据仓库与Python大数据 2022-08-17

收录于合集

#面试系列 20 个

#数仓之路 40 个

#学习路线 37 个

#数据仓库 44 个

写在前面：

已斩offer，很开心，借公众号“数据仓库与Python大数据”共享平台再分享回馈给大家！关注公众号两年，伴随着个人的成长，学到了很多知识和技术，终于从小公司跳到了大厂。共勉，一起进步。

注：三面合在一起了，也包含了面试美团优选的面试题。

自我介绍

正常介绍就好。报下大名，经历公司与参与项目，负责事项与业绩产出。

思想和方法论

数据仓库理解：架构、分层
数据仓库理解：主题域、好处
范式建模和维度建模区别，混合使用场景举例
两种建模的解释和理解区别
雪花模型星型模型解释理解
实体建模和维度建模区别
ER模型图理解解释
模型会随着业务进行迭代优化手段
拉链表理解解释场景举例，全量拉链vs增量拉链
数据质量如何保证的
讲一下数据治理
如何做元数据管理，实践
怎么理解数据中台与OneData思想

Hive

hive 行转列，列转行
udf函数讲解，然后手撕一下
mapreduce和spark分别讲解然后，区别讲解
hive 数据倾斜调优
hive sql 优化方式
map数、reduce数、job数怎么确定
cube、grouping sets、grouping__id

手写SQL

根据实际业务场景，写累计SQL逻辑
手写连续登录hql，求连续登录的用户，以及具体哪天登录的日期
行转列列转行

Spark

spark算子部分讲解举例
spark调优讲解并举例
spark数据倾斜讲解，并举例。
spark宽依赖，窄依赖讲解，并举例。
spark 容错机制

实时数仓&Flink

做过实时数仓吗，生产举例。
实时数仓vs数据湖，生产实践
flink 应用场景
flink 水位线，窗口
flink 反压机制原理
kafka 实时讲解，如何分区
kafka 数据丢失怎么办
kylin 使用问题，优化策略
hbase 使用情况，rowkey设计

算法

求两个连续数组的中位数
手写单例模式

反问环节

一般就问问项目架构、组织架构和对自己的定位就好。不要问太多，很多时候只是面试官在客套。

总结

问的还是比较全的，从离线数仓到实时数仓，从Hive到Spark到Flink，HQL开窗函数使用问的频率也是非常高。但大部分时间，还是都在问项目更多一些。

也参加了美团优选的面试，基本问题都差不多，尤其是技术问题大同小异。问项目细节还是差异挺大的，模型细节，业务细节，模型与业务的结合，一定要理解业务。

写在最后：

我应该是第一批关注这个公众号的粉丝，也是第一批加入仙子星球的读者。伴随公众号的成长，我个人也在成长，很开心能与大家分享，希望能帮到你，也欢迎大家关注这个数仓领域高质量的公众号。再次谢邀！

-- END --

扩展阅读：阿里数据中台资料已为读者朋友准备好了，点击下方公众号“数据仓库与Python大数据”后台回复“阿里中台”，即可下载。公众号菜单栏，“面试系列”专题合集也为大家准备好了。

感谢阅读，本次分享的内容就结束了。本公众号致力于建设数仓领域知识技术人文共享平台，保持日更，每天08:16发文，团队作战，服务奉献，为您提供优秀高质量的数据领域的分享。加群或投稿也可加v：iom1128 或 edw0808，备注：数据，谢谢！

点击图片即可跳转链接

字节跳动-数据仓库高级工程师面试

乘风破浪 | 大厂数仓开发面试经验（二）

面试系列 | 大厂数据开发面试经验

记一次数据岗位大厂面试（已斩offer）

压轴推荐：快手数据中台建设 - 大数据服务化之路

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

橙心优选-数据仓库高级工程师面试

您可能也对以下帖子感兴趣

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

生成图片，分享到微信朋友圈

橙心优选-数据仓库高级工程师面试

您可能也对以下帖子感兴趣